Talking face generation aims at generating photo-realistic video portraits of a target person driven by input audio. Due to its nature of one-to-many mapping from the input audio to the output video (e.g., one speech content may have multiple feasible visual appearances), learning a deterministic mapping like previous works brings ambiguity during training, and thus causes inferior visual results. Although this one-to-many mapping could be alleviated in part by a two-stage framework (i.e., an audio-to-expression model followed by a neural-rendering model), it is still insufficient since the prediction is produced without enough information (e.g., emotions, wrinkles, etc.). In this paper, we propose MemFace to complement the missing information with an implicit memory and an explicit memory that follow the sense of the two stages respectively. More specifically, the implicit memory is employed in the audio-to-expression model to capture high-level semantics in the audio-expression shared space, while the explicit memory is employed in the neural-rendering model to help synthesize pixel-level details. Our experimental results show that our proposed MemFace surpasses all the state-of-the-art results across multiple scenarios consistently and significantly.
translated by 谷歌翻译
本文回顾了AIM 2022上压缩图像和视频超级分辨率的挑战。这项挑战包括两条曲目。轨道1的目标是压缩图像的超分辨率,轨迹〜2靶向压缩视频的超分辨率。在轨道1中,我们使用流行的数据集DIV2K作为培训,验证和测试集。在轨道2中,我们提出了LDV 3.0数据集,其中包含365个视频,包括LDV 2.0数据集(335个视频)和30个其他视频。在这一挑战中,有12支球队和2支球队分别提交了赛道1和赛道2的最终结果。所提出的方法和解决方案衡量了压缩图像和视频上超分辨率的最先进。提出的LDV 3.0数据集可在https://github.com/renyang-home/ldv_dataset上找到。此挑战的首页是在https://github.com/renyang-home/aim22_compresssr。
translated by 谷歌翻译
使用增强现实(AR)用于导航目的,这表明在手术手术过程中协助医生有益。这些应用通常需要知道外科手术工具和患者的姿势,以提供外科医生在任务执行过程中可以使用的视觉信息。现有的医学级跟踪系统使用放置在手术室内的红外摄像头(OR)来识别感兴趣的对象附加并计算其姿势的复古反射标记。一些市售的AR头式显示器(HMD)使用类似的摄像头进行自定位,手动跟踪和估算对象的深度。这项工作提出了一个使用AR HMD的内置摄像机来准确跟踪复古反射标记的框架,例如在手术过程中使用的标记,而无需集成任何其他组件。该框架还能够同时跟踪多个工具。我们的结果表明,横向翻译的准确度为0.09 +-0.06毫米,可以实现标记的跟踪和检测,纵向翻译的0.42 +-0.32 mm,绕垂直轴旋转的0.80 +-0.39 ver。此外,为了展示所提出的框架的相关性,我们在手术程序的背景下评估了系统的性能。该用例旨在在骨科过程中复制K-Wire插入的场景。为了进行评估,为两名外科医生和一名生物医学研究人员提供了视觉导航,每次都进行了21次注射。该用例的结果提供了与基于AR的导航程序报告的相当精度。
translated by 谷歌翻译
基于空间的重力波(GW)检测器将能够观察到来自当前基于地面检测的来源几乎不可能的信号。因此,建立的信号检测方法(匹配的过滤)将需要一个复杂的模板库,从而导致计算成本在实践中过于昂贵。在这里,我们为所有空间GW来源开发了高准确的GW信号检测和提取方法。作为概念的证明,我们表明,科学驱动和统一的多阶段深神经网络可以识别出浸入高斯噪声中的合成信号。与目标信号相比,我们的方法具有超过99%的信号检测准确性,同时获得至少95%的相似性。我们进一步证明了几种扩展场景的解释性和强烈的概括行为。
translated by 谷歌翻译
文本情绪分析(也称为意见挖掘)是对实体表达的人们观点,评估,态度和情感的计算的研究。文本情绪分析可以分为文本级别的情感分析,森林级别的情感分析和方面级别的情感分析。基于方面的情感分析(ABSA)是情感分析领域中的精细任务,该任务旨在预测各个方面的极性。训练前神经模型的研究显着改善了许多自然语言处理任务的性能。近年来,培训模型(PTM)已在ABSA中应用。因此,有一个问题,即PTM是否包含ABSA的足够的句法信息。在本文中,我们探讨了最近的Deberta模型(解码增强的BERT,并引起注意),以解决基于方面的情感分析问题。 Deberta是一种基于Transformer的神经语言模型,它使用自我监督的学习来预先培训大量原始文本语料库。基于局部环境重点(LCF)机制,通过整合Deberta模型,我们为基于方面的情感分析的多任务学习模型。该实验导致了Semeval-2014最常用的笔记本电脑和餐厅数据集,而ACL Twitter数据集则表明,具有Deberta的LCF机制具有显着改善。
translated by 谷歌翻译
最近的文本到语音(TTS)的质量与人类的质量相当。但是,其在口语对话中的应用尚未得到广泛研究。这项研究旨在实现与人类对话非常相似的TT。首先,我们记录并抄录实际自发对话。然后,提出的对话TTS分为两个阶段:第一阶段,各种自动编码器(VAE) - VITS或高斯混合物变化自动编码器(GMVAE) - 培训了训练,从端到端文本对语音(VIT),最近提出的端到端TTS模型。从语音中提取潜在的口语表示的样式编码器与TTS共同培训。在第二阶段,对风格预测指标进行了训练,以预测从对话历史中综合的说话风格。在推断期间,通过将样式预测器预测的语言样式表示为VAE/gmvae-vits,可以以适合对话背景的样式合成语音。主观评估结果表明,所提出的方法在对话级别的自然性方面优于原始VIT。
translated by 谷歌翻译
由于固有的DNN预测误差,确保解决方案可行性是开发用于解决受约束优化问题的深度神经网络(DNN)方案的关键挑战。在本文中,我们提出了一种“预防性学习”的框架,以系统地保证DNN解决方案可行性的凸起约束和一般客观函数的问题。我们首先应用预测和重建设计,不仅保证平等约束,还可以利用它们来减少DNN预测的变量的数量。然后,作为关键方法贡献,我们系统地校准了DNN训练中使用的不等式约束,从而预测预测误差并确保所得到的解决方案仍然可行。我们表征校准量大和DNN尺寸,足以确保通用可行性。我们提出了一种新的敌对样本意识到培训算法,以改善DNN的最优性能而不牺牲可行性保证。总的来说,该框架提供了两个DNN。表征足够的DNN大小的第一个可以保证通用可行性,而来自所提出的培训算法的另一个进一步提高了最优性并同时保持DNN的通用可行性。我们应用预防性学习框架来开发Deepopf +,以解决网格运行中的基本DC最佳功率流量问题。它在确保在轻负载和重载制度中的可行性和获得一致的理想加速性能时,它可以改善现有的基于DNN的方案。仿真结果对IEEE案例-30 / 118/300测试用例显示DeepoPF +与最优性损失的最优损失和最高幅度计算加速度为100 \%$ 0.5%的可行解决方案,相比之下艺术迭代求解器。
translated by 谷歌翻译
最近的进展表明,可以通过像欧妮线方程等物理限制来实现半监督隐式表示学习。然而,由于其空间不同的稀疏性,该方案尚未成功地用于LiDAR点云数据。在本文中,我们开发了一种新颖的制定,条件在局部形状嵌入上的半监督隐式功能。它利用稀疏卷积网络的强大表示力,以产生形状感知密集特征卷,同时仍允许半监控符号函数学习,而不知道自由空间的确切值。具有广泛的定量和定性结果,我们证明了这种新的学习系统的内在属性及其在现实世界道路场景中的用途。值得注意的是,我们在Semantickitti将iou从26.3%到51.0%。此外,我们探索了两个范式来集成语义标签预测,实现隐式语义完成。可以在https://github.com/open-air-sun/sisc访问代码和模型。
translated by 谷歌翻译
多任务室内场景理解被广泛被认为是一种有趣的制定,因为不同任务的亲和力可能导致性能提高。在本文中,我们解决了联合语义,提供的新问题,提供了归因。但是,成功解析它需要模型来捕获远程依赖性,从弱对齐的数据中学习并在训练期间正确平衡子任务。为此,我们提出了一个名为Cerberus的关注建筑和定制培训框架。我们的方法有效地解决了上述挑战,并在所有三个任务上实现了最先进的表现。此外,深入分析显示了与人类认知一致的概念亲和力,这激励我们探讨弱监督学习的可能性。令人惊讶的是,Cerberus仅使用0.1%-1%的注释来实现强劲的结果。可视化进一步证实,这一成功被记入跨任务的常见注意地图。可以在https://github.com/open-air-sun/cerberus访问代码和模型。
translated by 谷歌翻译
可再生能源世代的高百分比渗透对电力系统引起了重大不确定性。它要求网格操作员更频繁地解决替代电流最佳功率流(AC-OPF)问题,以便在传输和分配网格中进行经济和可靠的操作。在本文中,我们开发了一种Deep神经网络(DNN)方法,称为DEEPOPF,用于在传统求解器使用的时间中解决AC-OPF问题。应用机器学习技术解决AC-OPF问题的关键困难在于确保获得的解决方案尊重平等和不平等的物理和操作约束。在[1],[2]中概括了2阶段的过程,DEEPOPF首先训练DNN模型,以预测一组独立的操作变量,然后通过求解功率流方程直接计算剩余的可靠性变量。这种方法不仅保留了平衡平等的限制,而且还减少了DNN预测的变量数量,从而减少了所需的神经元和训练数据的数量。然后,DeePOPF在培训过程中采用零级梯度估计技术采用惩罚方法,以保留其余的不平等约束。作为另一个贡献,我们根据所需的近似精度来驱动调整DNN的大小的条件,该准确性测量了DNN的概括能力。它为使用DNN解决AC-OPF问题提供了理论上的理由。 IEEE 30/118/300-BU和合成2000总线测试用例的仿真结果表明,与最先进的求解器相比,DEEPOPF最多将计算时间速度高达两个数量级,费用为费用$ <$ <$ 0.1%的成本差异。
translated by 谷歌翻译